Рассмотреть базу генов рака и выполнить следующие задания:
Загрузим используемые библиотеки
knitr::opts_chunk$set(echo = TRUE)
library(data.table)
library(DT)
Скачиваем список генов с NCG и читаем его
data <- as.data.frame(fread("NCG6_cancergenes.tsv"))
DT::datatable(data)
Мы выбрали ген PIK3CA, и нашли его в IntOGen
У данного гена есть мутации связанные со многими типами рака:
IntOGen_methods <- as.data.frame(fread("IntOGen-Methods-PIK3CA.tsv"))
DT::datatable(IntOGen_methods)
Большая часть мутаций являются точечными (97% всех мутаций данного гена приходятся на missense-мутации, которые являются точечными), но также встречаются и структурные
IntOGen_mutations <- as.data.frame(fread("IntOGen-Distribution-PIK3CA.tsv"))
DT::datatable(IntOGen_mutations)
Далее откроем раздел мутаций рассматриваемого гена в ICGC, и рассмотрим таблицу исследований различных типов рака, имеющие мутации в данном гене:
icgc_table <- as.data.frame(fread("ENSG00000121879_distribution_2021_05_08_01_01_35.tsv"))
DT::datatable(icgc_table)
Рассмотрим донора DO41337, его мы выбрали рассмотрев одно из исследований (UCEC-US), в котором встречались мутации PIK3CA
DO41337 <- as.data.frame(fread("DO41337.tsv"))
DT::datatable(DO41337)
У данного донора имеется 5 мутаций в рассматриваемом гене (ENSG00000121879)
DO41337Lines = readLines("DO41337.tsv")
sum(grepl(pattern = "ENSG00000121879", x = DO41337Lines))
## [1] 5
Исследование UCEC-US рассматривало рак тела матки(endometrial cancer), а следовательно часть доноров данной выборки имеет мутации связанные с повышенным риском возникновения данного заболевания. Тогда мы можем рассмотреть еще 4 гена из базы генов рака, чьи мутации связаны с данным видом рака (endometrial_cancer в поле cancer_type), например:
ALPK2, у данного донора в этом гене можно наблюдать 7 мутаций,
sum(grepl(pattern = "ENSG00000198796", x = DO41337Lines))
## [1] 7
BCOR, наблюдаются 17 мутаций,
sum(grepl(pattern = "ENSG00000183337", x = DO41337Lines))
## [1] 17
CCND1, наблюдаются 4 мутации,
sum(grepl(pattern = "ENSG00000110092", x = DO41337Lines))
## [1] 4
ERBB2, наблюдаются 11 мутаций
sum(grepl(pattern = "ENSG00000141736", x = DO41337Lines))
## [1] 11